交叉学科
背景多样,机会均等,算法关键也不过是小小一隅 你的心在何方 你的相在何处
2015-06-08
交叉学科
你的心在何方 你的相在何处
pkg=c('rmarkdown', 'knitr', 'MSG', 'plotrix', 'parallel', 'RMySQL' );
install.packages(pkg)
bdata
数据只有经过合理的分析,使用合适的方法,才可能得到较为符合实际的结论。
然而,事实是,对于无处不在的数据,只要用上一种方法,就能得到一个结论。
下面介绍几个分析角度,描述几个从客观数据到主观推断的风险。
- 换个视角(圈圈图)
- 相关性假象
- 一步到位的分析
- 辛普森悖论
par(mfrow = c(1, 2), ann = FALSE) plot(BinormCircle)
par(mfrow = c(1, 2), ann = FALSE) plot(BinormCircle) smoothScatter(BinormCircle)
一个简单的方法,改变下观察视角:点的大小+放大
par(mfrow = c(1, 1)) plot(BinormCircle,pch=19,cex=0.01)
plot(身高~体重,d2)
plot(身高~体重,d2);text(d2[,2],d2[,3],d2[,1]);
# 上证综指
getSymbols("^SSEC");SSEC=data.frame(SSEC)
## [1] "SSEC"
SSEC$t=rownames(SSEC);tail(SSEC)
## SSEC.Open SSEC.High SSEC.Low SSEC.Close SSEC.Volume ## 2017-06-07 3101.761 3140.774 3098.951 3140.325 173200 ## 2017-06-08 3136.471 3153.264 3132.828 3150.334 152300 ## 2017-06-09 3147.453 3165.920 3146.108 3158.400 160100 ## 2017-06-12 3149.527 3164.950 3135.314 3139.877 146700 ## 2017-06-13 3134.009 3155.990 3131.043 3153.743 128300 ## 2017-06-14 3146.748 3149.173 3125.355 3130.674 138300 ## SSEC.Adjusted t ## 2017-06-07 3140.325 2017-06-07 ## 2017-06-08 3150.334 2017-06-08 ## 2017-06-09 3158.400 2017-06-09 ## 2017-06-12 3139.877 2017-06-12 ## 2017-06-13 3153.743 2017-06-13 ## 2017-06-14 3130.674 2017-06-14
n=nrow(SSEC);x=1:n;y1=SSEC$SSEC.Volum;y2=SSEC$SSEC.Close;
twoord.plot(x,y1,x,y2,xlim=c(0,n),lylim=c(0,300000),rylim=c(2000,6000), lcol=4,rcol=2,xlab="name",ylab="volume",rylab="close",type=c("bar","b"),xticklab=SSEC$t,halfwidth=0.2)
plot(身高~体重,d2,axes=F,col="blue",pch=19,type='b',cex=2,xlab='',ylab='')
plot(x, y) abline(lm(y ~ x), col = "red")
plot(x, y, pch = z, col = rainbow(5)[z + 1]) for (i in z) abline(lm(y ~ x, subset = z == i), col = "darkgray")
+——-+——+——+
| 统计 | 有效| 无效 |
+——-+——+——+
| 新药 | 80 | 120 |
+——-+——+——+
| 安慰剂| 100 | 100 |
+——-+——+——+
RD = 80/200-100/200= -0.1
| 性别 | 男性 | 女性 | | ---- | -- | -- | -- | -- | | |有效|无效|有效|无效| | ---- | -- | -- | -- | -- | | 新药 | 35 |15 |45 |105 | RD男 = 35/50-90/150= 0.1 |安慰剂| 90 |60 |10 |40 | RD女 = 45/150-10/50= 0.1
最常用的图形
par(mfrow = c(1, 3)); hist(rnorm(100),col='blue');plot(rnorm(20),col='red'); plot(seq(1,10)+runif(10,min=0,max=15),type='b',col='green')
复杂的图形
复杂的图形-艺术与设计,京东数据汇
Gartner:Magic Quadrant for… by gartner Analytics
Gartner:Magic Quadrant for… by gartner BI
excel,
SPSS,
SAS,
matlab,
R,
weka,
python,
sql,hadoop,storm,spark,
… …
工具流
因地制宜,发挥所长。
浩瀚如海的算法
lazhuai
[1]:谢益辉,2010,"统计图形和模拟视角下的模型理论解析".
[2]:达莱尔,廖颖林译,2002,《统计陷阱》.
[3]:耿直,2009,"如何从生命科学研究数据中挖掘因果关系和评价因果作用?"
[4]:刘德寰,李雪莲,2013,"大数据的风险和现存问题"
[5]:吴恩达,Spark Summit 2016,"AI超能力"
[6]:Kumar Ashish,2016,"Deeplearning&XgBoost:Winning it hands down", http://www.datasciencecentral.com/profiles/blogs/deep-learning-xgboost-winning-it-hands-down
[7]:Manuel Fernández-Delgado,Eva Cernadas,etc,2014,"Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?",http://jmlr.org/papers/v15/delgado14a.html